AI

온톨로지_01_온톨로지와 지식 표현

작성자 : Heehyeon Yoo|2026-03-29
# 온톨로지# 지식표현# 의미론# OWL# 지식그래프

1. 온톨로지는 데이터가 아니라 의미의 규칙이다

온톨로지를 처음 접하면 자꾸 용어집이나 분류표처럼 읽기 쉽다. 하지만 그렇게 보면 핵심을 놓친다. 온톨로지는 어떤 대상이 무엇인지, 서로 어떤 관계를 맺는지, 어떤 제약이 성립하는지를 기계가 해석 가능한 형태로 적어 두는 지식 모델에 더 가깝다.

이 점이 중요하다. 데이터베이스는 값을 담고, 문서는 설명을 적고, 지식 그래프는 사실과 관계를 쌓는다. 반면 온톨로지는 그 값과 관계가 무엇을 뜻하는지, 어떤 추론이 가능한지를 정하는 층이다. 그래서 온톨로지는 지식을 저장하는 그릇이라기보다, 지식을 읽는 규칙으로 보는 편이 더 맞다.

이걸 이해하면 왜 온톨로지가 단순한 메타데이터보다 더 무겁게 취급되는지도 자연스럽다. 이름만 붙여 두는 것이 아니라, 의미를 고정하고 해석의 경계를 정하기 때문이다.

2. 택소노미, 스키마, 지식 그래프와의 차이

온톨로지를 이해할 때 가장 먼저 정리해야 할 건 비슷한 말들과의 경계다.

택소노미는 보통 상하위 분류 체계에 가깝다. "포유류 아래에 고양이, 개가 있다" 같은 구조다. 스키마는 데이터 구조를 정한다. 어떤 필드가 있고 어떤 타입을 가지는지, 어떤 테이블이 어떻게 연결되는지 같은 것들이다. 지식 그래프는 개체와 관계를 그래프 형태로 담는다.

온톨로지는 이 셋과 겹치지만 같은 말은 아니다. 분류도 다루고, 구조도 다루고, 관계도 다룬다. 다만 거기서 한 단계 더 들어가 의미와 제약을 함께 적는다. 어떤 관계가 허용되는지, 어떤 속성이 어떤 클래스에 붙을 수 있는지, 두 개념이 서로 배타적인지 같은 규칙까지 포함한다.

그래서 좋은 지식 그래프가 반드시 좋은 온톨로지를 가지는 건 아니고, 반대로 온톨로지가 있다고 해서 그래프 데이터가 저절로 좋아지는 것도 아니다. 둘은 층위가 다르다. 지식 그래프가 사실의 구조라면, 온톨로지는 그 구조를 읽는 개념 틀에 더 가깝다.

짧게 예를 들면 이렇다.

고객 - 주문 - 상품이 있다는 사실만 적어 두면 그래프에 가깝다.
여기서 고객은 사람인가 조직인가, 주문은 반드시 한 고객에 속하는가, 상품과 서비스는 같은 클래스인가 다른 클래스인가까지 정하기 시작하면 온톨로지 쪽으로 넘어간다.

3. 형식 의미론과 추론 가능성

온톨로지에서 가장 자주 놓치는 말이 형식 의미론이다. 말이 어려워 보이지만 뜻은 단순하다. 사람이 대충 알아듣는 정도가 아니라, 기계도 같은 방식으로 해석할 수 있게 의미를 고정해 둔다는 뜻이다.

이게 왜 중요하냐면, 같은 단어라도 문맥에 따라 뜻이 달라지기 때문이다. 관계 이름이 같아도 방향이 다를 수 있고, 어떤 속성은 특정 클래스에만 허용될 수도 있다. 사람이 읽으면 그럭저럭 넘어갈 수 있는 모호함을, 기계는 스스로 메우지 못한다.

그래서 온톨로지는 "의미를 적어 둔 문서"에서 끝나면 안 된다. 추론과 검증이 가능해야 한다. 어떤 개체가 특정 클래스에 속하는지, 어떤 관계가 규칙을 위반하는지, 이미 주어진 사실로부터 무엇을 더 끌어낼 수 있는지까지 따져야 한다. 이 지점에서 OWL 같은 언어가 등장한다.

반대로 SKOS는 더 가볍다. 시소러스나 분류 체계를 공유하는 데 적합하다. 둘 다 의미를 다루지만, 무게 중심이 다르다. 온톨로지를 곧바로 가장 무거운 형식 언어로만 이해하면 부담이 커지고, 반대로 분류표 수준으로만 보면 왜 필요한지 설명이 안 된다.

4. 왜 지금도 온톨로지를 배우는가

온톨로지는 오래된 시맨틱 웹 이야기처럼 보이기 쉽다. 실제로 한동안 그런 느낌도 있었다. 그런데 데이터를 여러 시스템에서 같이 써야 하고, 용어 충돌을 줄여야 하고, 지식 그래프나 검색 시스템 위에서 추론 가능한 구조를 유지해야 하는 문제는 사라지지 않았다.

오히려 지금은 온톨로지를 다시 읽어야 할 이유가 더 분명하다. 데이터 통합, 지식 그래프, 검증 가능한 AI, 도메인 지식 관리 같은 문제에서 결국 부딪히는 게 의미의 일관성이다. 같은 단어를 여러 팀이 다르게 쓰고, 같은 관계를 시스템마다 다르게 저장하면 그 위에 어떤 모델을 얹어도 오래 버티기 어렵다.

내 기준으로 온톨로지는 데이터를 더 많이 넣기 위한 기술이 아니다. 데이터를 덜 헷갈리게 쓰기 위한 기술에 가깝다. 지식을 더 풍부하게 만드는 일 이전에, 지식이 서로 충돌하지 않게 만드는 일에 먼저 쓰인다. 이 감각을 잡고 보면 온톨로지는 낡은 개념이 아니라, 의미를 다루는 시스템에서 계속 다시 나오는 기초층으로 보이기 시작한다.

참고 자료